董学耕:两种信息之辨正
本文将说明,信息技术、信息论之信息和DIKW模型之信息完全不在一个层面,是不同的概念。概而言之,在DIKW模型中,信息是数据所“记录”的内容,信息和数据是相统一的;信息技术、信息论之信息则是在概率论的背景上对符号所含信息量的度量。希望数据业界能形成共识,如果用DIKW模型,就不必再去和信息论、信息技术中的信息一词相纠结了。
关键词:数据;信息;熵;DIKW模型
文献[1]中对数字与数据等概念进行了辨正。文献[2]对数据、信息、知识、智慧等概念在DIKW模型框架下进行了辨正。本文将对信息概念本身进行深入讨论,以正视听。
当前业界对于信息概念的使用存在极大的含混。一是信息与数据的区别和联系不清不楚,时而等同,时而区分。二是对于日常使用的信息概念、法律上的信息概念、信息技术领域使用的信息概念缺乏清晰的分辨。
本文将说明,信息技术、信息论之信息和DIKW模型之信息完全不在一个层面,是不同的概念。本文中将后者记为信息1,前者记为信息2。信息1和信息2有极大差别。
一、信息从日常语词到科学概念
人类自远古就开始计数,传递信息。信息总是和现实世界的事物相关联的。DIKW(数据-信息-知识-智慧)模型是一个概念模型,一个框架,一种哲学概念,在后续的历史发展中逐步成型,逐步清晰。
近代实验科学发展起来后,数量化成为趋势,用数据完备地表达物理世界(系统)成为科学理想。
牛顿力学是第一个完备的科学体系,用一定的物理量表达物理系统的完备信息——从质点、刚体等,具备若干自由度,用若干物理量表达,完备地描述一个物理系统。科学思想的基本范式就是,从物理世界抽象出物理系统,用有限的物理概念,做数量化表达,形成完备描述。各自独立的物理量描述不同的自由度,张开一个完备描述系统的相空间,一组完备的数据构成相空间中的一个点,描述物理系统的一个确定的状态。
这就是一组DIKW模型的具体表述:物理世界用相空间(数字空间)来表达;一个具体的物理系统的物理状态用相空间中的一个点(一组数据)来描述;数据表示物理系统的状态,承载着物理系统的信息。数据作为(表示物理系统状态的)信息的“记录”载体;信息是数据所“记录”的内容(物理系统的状态)。
信息意味着所表达的物理系统(状态)的确定性。
二、物理系统的分层与信息概念的分层
(一)从统计物理说起
十九世纪热力学发展起来。热力学针对的是宏观物理系统,怎样用当时最成功的牛顿力学描述这样的宏观系统,人们进入了微观分子层面,例如将气体温度解释为分子平均动能。于是统计物理学进一步发展起来。从微观角度解释宏观物理现象,就对数据和信息进行了分层,实际上是物理量有了分层。有侧重微观粒子个体的微观物理量,也演生出了描述大量粒子组成的宏观系统的宏观物理量。
从DIKW模型来看,就有微观数据与微观信息,也有宏观数据与宏观信息,这些都是信息1。
从还原论的观点看,宏观系统由分子原子组成,宏观性质可以还原为微观粒子运动规律的结果。对于一个有阿伏加德罗常数即10²³数量级粒子的宏观系统,这意味着,我们需要解10²³个联立运动方程,而且需要10²³个初始条件。这在实际上是不可能的。从演生论的观点看,“多者异也”,宏观系统有宏观系统的独立规律。热力学和统计物理就是这样的新规律。宏观系统不再用其组成粒子的运动状态(位置、速度)来描述,而是用宏观物理量来描述,例如温度、压强、体积、内能、熵等物理量。热力学第二定律即孤立系统的熵增加(严格说是不会减少)。在统计物理学的微观解释中,体现为微观信息量(信息2)的减少,不确定性的增加。
我们需要对这个信息概念进行解释。粒子微观运动状态为信息1。每个粒子有3个自由度,描述其运动状态(位置、速度)需要6个信息1;描述一个宏观系统的微观运动状态需要10²³量级的信息1。每个信息1都有一定的取值范围,以及每个取值都有一定的出现概率。一个微观状态确定的宏观系统可以用10²³维度的相空间的一个点来表示。每个这样的点都有相同的概率真实存在(这是统计物理学的等概率原理)。一定宏观物理量描述的确定状态的宏观系统相对应的微观状态是大量的,其在相空间中占有一定的体积。这个体积越小,意味着相应宏观状态所对应的微观物理状态较为准确,即描述这些微观物理状态的物理量(信息1)的取值范围较小,确定性较大,也就是说其包含的信息1的量较多,但相应宏观状态出现的概率则较小;反之,这个体积越大,则意味着该宏观状态相对应的微观物理状态不太准确,描述这些微观物理状态的物理量(信息1)的取值宽泛,其包含的信息1的量较少,不确定性较大,相对应的宏观系统出现的概率则较大。前者为熵较小的状态,后者则熵较大。宏观系统的熵是对于相对应的微观状态出现概率的描述。热力学第二定律意味着孤立宏观系统熵的增加,也就是微观状态不确定性的增加,也是微观信息1的确定性减少。
从微观角度看,熵表征的是系统包含微观信息1的数量及其相应的出现概率,因此不再是微观信息1本身,而是对包含多少微观信息1的数量的描述,即不是信息本身,而是信息的数量,这实际上已经成为信息2。其背景是,从微观角度看宏观系统,对于确定的宏观系统,其对应的微观信息1不是确定的,而是以某个概率出现,这个概率依赖于微观信息1的数量,这就是信息2——对宏观系统的确定数量描述。
因此,虽然从微观角度看,熵是信息2,表征微观状态的不确定性,或者说微观信息1数量的不足。但是从宏观角度看,熵作为描述宏观系统的物理量,则成为宏观信息1。
我们一定要注意这样的区别,即微观信息1的集合数量表达成为信息2,但又作为宏观信息1。
这就是微观信息到宏观信息的演生。微观信息之不确定性用宏观物理量熵来表征。波尔兹曼公式就是把熵和混乱度,和一个系统有多少种等价的微观状态联系起来。
对于宏观系统而言,实际上我们并不关心每个粒子微观状态的确定性(微观信息1),而只是关心宏观物理量(宏观信息1)。统计物理学描述了从微观信息1到宏观信息1(微观信息2)的演生。
(二)再来看信息技术
信息技术是从计算技术开始的,从图灵机开始,到工程化的冯诺依曼构型,电子数字计算机成长壮大起来。这里就是针对数字进行计算,数字是计算的元素。后续的发展,以数字为元素,以至于将文字、语音、图像、视频等均编码为数字,再用数字计算机进行处理、存储、传输,等等。这就是数字化。
当我们对作为元素的数字(表征来自现实世界的文字、语音、图像、视频等,即信息1)进行处理的时候,需要度量其处理的信息量(信息2),用信息熵来度量,单位是比特。这是香农信息论的贡献。
信息论最初来自通信领域,“通信”就是“传递信息”,即如何高效地存储、传输、利用、恢复信息,而信息论会帮助我们度量“信息”。
科学理论需要物理量的量化,物质和能量都是可度量的,量化后才能建立数学模型。要理清信息的概念,不仅要在DIKW概念模型中给信息一个清晰的定义(信息是数据所“记录”的内容,即物理系统的状态),还必须给信息一个定量的描述。如何度量信息呢?
香农借用了热力学中的一个词:熵。香农最终提出了“信息熵”的概念和表达式。信息熵公式中,香农天才而巧妙地将信息与概率联系起来,揭示了信息是“微观不确定性的度量”这个本质。
一段符号(及其代表的事件或其数字化数据表达,即信息1)代表了多少信息(信息2)呢?极端而言,如果一段符号(信息1)确然出现,也就是说是完全确定性要出现的,其包含的信息量(信息2)就最大;一般而言,一段符号(信息1)只是以某个概率出现,存在不确定性,其含有的信息量(信息2)就较少;而对这段符号再补充信息(信息1)可以让“不确定性”降低,可以增加其所含的信息量(信息2)。信息熵(即包含的信息量、信息2)即是对该信息1出现概率的描述,也是对其不确定性的描述。
比特是香农定义的信息(信息2)的单位,计算过程就是传递信息,所以自然而然地,比特也成为了衡量计算机运算及储存能力的重要指标。香农的信息论公式,在信息与不确定性和混乱程度之间架起了桥梁,这是信息与自然界的深层联系。
香农的理论以概率论为工具,所以信息熵更是概率论意义上的熵。统计物理学也用概率论,在描述不确定性这一点上是一致的。但统计物理学和热力学的熵更强调宏观的微观解释,以及熵表达的时间不可逆等等物理意义。信息熵则没有这方面含义。信息论中很多情况将信息熵用作传递量,似乎更容易造成信息1以及其所包含的信息量(信息2)的混淆。坦率说,人们用两个不同的词来表述这两个不同的概念就好了。
(三)回到DIKW模型之信息
在DIKW模型中,数据和信息概念既区分又统一。
按照《数据安全法》[3]第3条第1款,将数据界定为“以电子或者其他方式对信息的记录”。数据的定义便是作为信息的“记录”载体。
按照《个人信息保护法》[4]第4条第1款,将个人信息界定为“以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息”,但“不包括匿名化处理后的信息”。概而言之,信息乃是“记录”(在数据上)的已识别或可识别的各种信息,也就是说,信息的定义便是作为数据“记录”的内容。
数据和信息的关系便是形式和内容的关系。在符号学的意义上,信息处于语义(内容)层,而数据则处于句法(符号)层。或者说,它们分别对应符号的所指和能指。它们既有区分,又不能割裂开来,而需要统一为一体。区分的目的在于分类规制,这也是我们在文献[5]中对数据的所指不同而进行分类的依据,数据需要分为涉私数据和非涉私数据等,同时,也才便于基于内容的分类对不同数据进行不同的形式化处理。
正因为我们依据数据和信息的形式和内容进行了细化分类,即已经明确区分了形式和内容,同时又不能割裂形式和内容,在此前提下,我们不再区分数据和信息,除非特别指明,数据(侧重形式)和信息(侧重内容)相统一,可以通用。
事实上,除了和信息论、信息技术中所用的信息2相区别,我们在DIKW模型中,即在数据领域所使用信息一词,基本都是指的信息1,这个信息和数据是相统一的。
在各国的立法实践中,也基本没有区分数据和信息。
希望就此,业界能形成共识,不必再去和信息论、信息技术中的信息一词相纠结了。
参考文献:
[1]董学耕. 数据基础设施论纲——关于数字空间、数据空间、数据资源体系、数据基础设施等基本概念的系统性梳理.(点击打开)
[2]董学耕. 论数据产品作为数据知识产权的登记和入表.(点击打开)
[3]中华人民共和国数据安全法. 中国人大网
[4]中华人民共和国个人信息保护法. 中国人大网
[5]董学耕等.用数据点亮智慧之光:海南省数据要素市场建设探索与实践.南方出版社,2023.(点击购买)
作者简介:董学耕,海南省大数据管理局局长、高级工程师,研究方向:数字政府、数字经济、数据要素。
责编 | 符丹丹
编辑 | 魏榕辰
转载请注明来源 | 海南省大数据管理局
往期回顾
REVIE
董学耕 | 数据关联对象对数据的决定权与数据产品化确权(一)
董学耕 | 数据产品超市——数据产品开发生产、流通交易和安全使用的一体化(二)
董学耕 | 数据产品超市——探索数据跨境安全有序流动的实现途径(三)
董学耕 | 数据关联对象“决定权”与整体政府数据共享开放(四)
董学耕 | 数据关联对象的安全自决权与数据安全的原子化(七)
董学耕 | 数据基础设施论纲——关于数字空间、数据空间、数据资源体系、数据基础设施等基本概念的系统性梳理(九)
董学耕 | 数据基础设施论纲Ⅱ——海南关于数据共享和开发利用的实践路径(十)